کد خبر: 47009
تاریخ انتشار: پنج شنبه, 04 اسفند 1401 - 11:35

داخلی

»

سخن هفته

تکمله‌ای بر سخن هفته : آیا دوران کتابداران به سر رسیده است؟

ChatGPT یک JPEG کدر  و تار از وب است ! ! ! !

منبع : لیزنا
سید ابراهیم عمرانی
ChatGPT یک JPEG کدر  و تار از وب است ! ! ! !

لیزنا؛ سیدابراهیم عمرانی، سردبیرترجمه‌ای که تقدیم می‌شود، تکمله‌ای است بر سخن هفته همین هفته (اول اسفند 1401) است.

 زمانی که مقاله دکتر خسروی با عنوان مانایی را می خواندم، فکر کردم که زمان واکسیناسیون نوبت دوازدهم است و باید برای دوزادهمین سال متوالی یک سوزن به خودمان بزنیم. مقاله‌ای در مورد چت جی‌پی تی خوانده بودم و مقاله دکتر خسروی مرا بر آن داشت که صحبت ایشان را ادامه دهم. بنابراین در شبکه به دنبال این ربات پاسخگو و ارتباطش با کتابداران گشتم و واقعا قصد زدن سوزن به خودمان را داشتم و نوشتم عزیزان این ربات آمده، با همه اشکالاتش، ولی این اشکالات رفع می‌شود، خوب حالا نه؟ پنج سال دیگر چه می خواهید بکنید؟ آیا واقعا کتابداری از دست رفته است؟ و اگر اینطور است بزرگان بیایند بنشینند، و مطالعه کنند و بگویند چه کنیم که تعدادی تحصیلکرده بیکار به بیکاران کشور اضافه نکنیم، و بچه‌ها را به جهتی ببریم که نگرانی از آینده به حد اقل برسد. این کار مستلزم تحقیق جامعی است که باید تیمی از خبرگان دلسوز را کنار هم جمع کند و همه مدارس و گروههای علوم اطلاعات ISchools  دنیا را بررسی کنند و ببیند جهت‌گیری چیست؟

همین الآن در ایران جوانان بسیار خوبی داریم که خودشان راههای خوبی برای گذار از این دوران یافته و مشغول هستند که با اجازه نام نبرم، که ممکن است کسی از قلمم بیفتد و باعث شرمندگی شود، لیکن در میان چندین هزاران دانش آموخته موجود درصد کمی را تشکیل می‌دهند، و باید از اینها نیز کمک گرفت، و ساختار را اصلاح و به روز کرد.

بعد از جستجو در شبکه به مقاله ای که در سخن هفته این هفته معرفی کردم آیا دوران کتابداران به سر رسیده است؟

و مقاله بسیار خوب دیگری از مجله مشهور NewYorker  رسیدم، که تصمیم گرفتم ابتدا سخن هفته را منتشر کنم و بعد از یکی دو روز این مقاله را هم به عنوان تکمیل کننده تقدیم حضورتان کنم. نویسنده مقاله تد چیانگ Ted Chiang، یک امریکایی احتمالا چینی تبار است. تد چیانگ نویسنده و برنده جوایز داستانهای علمی تخیلی متعددی است.

قبل از ورود به مقاله به تعریف دو اصطلاح که مبنای  ChatGPT‌بر آن بنا نهاده شده می پردازم:

GPTمخفف چه؟ و LLM چیست؟ دو تکنولوژی که Chat GPT از آنها ساخته می شود.

GPT  یا Guide Partition Table در سال 2010 به عنوان بخشی از میان افزار UEFI[1] معرفی شد که در سیستم های جدید وجود دارد. GPT نسخه به روز تر و پیشرفته تر MBR[2] است که روی میان افزار UEFI کار می کند و به نوعی زیرمجموعه‌ای از آن است. برتری های زیادی در  GPT نسبت به MBR :نام برده می‌شود ، برای نمونه: در MBR اطلاعات پارتیشن ها و بوت سیستم فقط در یک پارتیشن ذخیره می شود و اگر این اطلاعات از بین برود یا دچار مشکل شود، سیستم عامل اجرا نمی شود. در GPT از این اطلاعات در چند پارتیشن و در سرورهای مختلف ذخیره می شود و اگر اطلاعات اصلی دچار مشکل شود، اطلاعات یک اپ به صورت خودکار جایگزین قرار می گیرد. حال با استفاده از این تکنولوژی و بردن کل اطلاعات وب روی سرورها و پارتیشن های مختلف، با استفاده از تکنولوژی Large Language Models یا “مدل زبانی بزرگ” کلماتی و عباراتی را با وزن دهی کنار هم می گذارد و تقدیم پرسش کننده می‌نماید.

Large language models مدل زبانی بزرگ

مدل زبانی بزرگ، توزیع مبتنی براحتمال بر روی توالی کلمات است. با توجه به هر گونه توالی کلمات به طول m، در یک مدل زبانی، یک احتمال P را به کل آن توالی  اختصاص می دهد. مدل‌های زبانی احتمالاتی را با تکنیکهای یادگیری ماشین، برای ایجاد بر روی پیکره‌های متنی در یک یا چند زبان به ماشین آموزش می‌دهند.  

 

و اما مقاله نیویورکر:

ChatGPT یک JPEG کدر  و تار از وب است

ربات گفتگوی OpenAI عبارت‌ها را ارائه می‌کند، در حالی که Google نقل قول‌ها رادر اختیار می گذارد. کدام را ترجیح می دهیم؟

در سال 2013، کارکنان یک شرکت ساختمانی آلمانی متوجه چیز عجیبی در مورد دستگاه فتوکپی زیراکس خود شدند: زمانی که یک کپی از پلان یک خانه تهیه کردند، متوجه شدند کپی آن به طرز ظریف اما قابل توجهی با اصل تفاوت دارد. در پلان طبقه اول بنا، هر یک از سه اتاق خانه با یک مستطیل همراه بود که مساحت آن را مشخص می کرد: اتاق ها به ترتیب 14.13- 21.11 و 17.42 متر مربع بودند. با این حال، در فتوکپی، هر سه اتاق به اندازه 14.13 متر مربع برچسب خورده بودند. این شرکت با یک متخصص کامپیوتر، دیوید کریزل،  تماس گرفت تا این نتیجه به ظاهر عجیب و غیرقابل قبول را بررسی کند. آنها به این دلیل به یک متخصص خبره کامپیوتر نیاز داشتند چون یک دستگاه فتوکپی زیراکس مدرن از فرآیند فیزیکی زیروگرافی که در دهه 1960 رایج شده بود استفاده نمی‌کند. در عوض، سند را به صورت دیجیتالی اسکن می کند و سپس فایل تصویر حاصل را چاپ می‌کند. این را با این واقعیت در نظر بگیرید که تقریباً هر فایل تصویر دیجیتالی فشرده می‌شود تا در فضا صرفه‌جویی شود، و راه‌حلی برای باز کردن کدهای این فشرده سازی و بازنمایی فایل باید ارائه شود.

فشرده‌سازی یک فایل به دو مرحله نیاز دارد: اول، رمزگذاری، که طی آن فایل به فرمت فشرده‌تری تبدیل می‌شود، و سپس رمزگشایی، که طی آن فرآیند معکوس می‌شود. اگر فایل بازیابی شده با فایل اصلی یکسان باشد، فرآیند فشرده سازی به عنوان قالب  "فشرده سازی بدون اتلاف") loosless compression format ( توصیف می شود: به این معنی که هیچ اطلاعاتی از دست نرفته است. در مقابل، اگر فایل بازیابی شده فقط فایل بسیار نزدیک به فایل اصلی باشد، فشرده‌سازی به‌عنوان قالب یا فرمت فشرده‌سازی  همراه با اتلاف (loosy compression format) توصیف می‌شود: در این نوع فشرده سازی برخی از اطلاعات کنار گذاشته شده‌اند و اکنون غیرقابل بازیابی هستند. "فشرده‌سازی بدون اتلاف" چیزی است که معمولاً برای فایل‌های متنی و برنامه‌های رایانه‌ای استفاده می‌شود، زیرا آن‌ها حوزه‌هایی هستند که حتی یک کاراکتر نادرست در آن‌ها می‌تواند فاجعه‌بار باشد. "فشرده سازی با اتلاف" اغلب برای عکس ها، صداها و ویدئوها در شرایطی که دقت مطلق ضروری نیست استفاده می شود. اغلب اوقات، ما متوجه نمی شویم که یک عکس، آهنگ یا فیلم به طور کامل بازتولید نشده باشد. وفادار نماندن به اصل، تنها زمانی محسوس‌تر می شود که فایل ها به شدت فشرده می‌شوند. در این موارد، ما متوجه مسایلی می‌شویم که به عنوان ساخته‌ها یا مصنوع های فشرده‌سازی شناخته می‌شوند: تیرگی و تصاویر ضعیف  JPEG،  MPEG، یا صدای ضعیف  MP3‌های با میزان بیت پایین‌ از همین نوع هستند.

دستگاه های فتوکپی زیراکس از “فرمت فشرده سازی با اتلاف" (lossy compression format) به نام jbig2 استفاده می‌کنند که برای استفاده با تصاویر سیاه و سفید طراحی شده است. برای صرفه جویی در فضا، دستگاه کپی نواحی شبیه به هم را در تصویر شناسایی می‌کند و یک کپی را برای همه آنها ذخیره می کند. هنگامی که فایل از حالت فشرده خارج می شود، از آن کپی، مکررا برای بازسازی تصویر استفاده می کند. در بررسی مساله بالا، مشخص شد که دستگاه فتوکپی برچسب‌هایی را که مساحت اتاق‌ها را مشخص می‌کنند به اندازه هم و  مشابه ارزیابی کرده و فقط یکی از آنها را ذخیره می‌کند ( 14.13 ) و هنگام چاپ پلان طبقه، از آن یکی برای هر سه اتاق استفاده مجدد می‌نماید.

این واقعیت که دستگاه های فتوکپی زیراکس از “فرمت فشرده سازی با اتلاف” به جای "الگوریتم فشرده سازی بدون اتلاف"   (lossless compression algorithm)   استفاده می کنند، به خودی خود یک مشکل نیست. مشکل این است که دستگاه‌های فتوکپی به شیوه‌ای ظریف تصویر را تخریب می‌کردند، که در آن آثار فشرده‌سازی فوراً قابل تشخیص نبودند. اگر دستگاه فتوکپی به سادگی پرینت‌های کدر و تار تولید می‌کرد، همه می‌دانستند که آن‌ها بازتولید دقیقی از نسخه‌های اصلی نیستند. آنچه منجر به مشکلات شد این واقعیت بود که دستگاه فتوکپی اعدادی را تولید می‌کرد که خوانا اما نادرست بودند. این باعث شد کپی ها درست به نظر برسند در حالی که درست نبودند. (در سال 2014، زیراکس یک وسیله(Patch)‌ برای اصلاح این مشکل تولید و منتشر کرد.

من فکر می‌کنم که باید این اتفاق با دستگاه فتوکپی زیراکس را به خوبی در نظر و در یاد نگاه داریم، زیرا ChatGPT  تولید شرکتOpen AI  و سایر برنامه‌های مشابه را که پژوهشگران هوش مصنوعی "مدل های زبانی بزرگ" (LLM)  می نامند را می خواهیم بررسی کنیم. بین یک دستگاه فتوکپی و یک "مدل زبانی بزرگ" ممکن است در وهله اول شباهتی دیده نشود، اما سناریوی زیر را در نظر بگیرید. تصور کنید که برای همیشه دسترسی خود به اینترنت را از دست می دهید. در مرحله آماده سازی، قصد دارید یک کپی فشرده از تمام متن موجود در وب ایجاد کنید تا بتوانید آن را در یک سرور خصوصی ذخیره کنید.

متأسفانه سرور خصوصی شما تنها یک درصد از فضای مورد نیاز را دارد. اگر می خواهید همه چیز متناسب باشد، نمی توانید از الگوریتم فشرده سازی بدون اتلاف استفاده کنید. در عوض، شما یک الگوریتم فشرده سازی با اتلاف می نویسید که نظم های آماری را در متن شناسایی می‌کند و آنها را در یک فرمت فایل تخصصی ذخیره می کند. از آنجایی که شما تقریباً قدرت محاسباتی نامحدودی برای درگیر شدن با این کار دارید، الگوریتم شما می‌تواند قوانین آماری بسیار ظریف را شناسایی کند و این به شما امکان می‌دهد به نسبت تراکم مطلوب صد به یک دست یابید.

با این کار، از دست دادن دسترسی به اینترنت چندان وحشتناک به نظر نمی‌رسد. شما تمام اطلاعات موجود در وب را در سرور خود ذخیره کرده اید. تنها نکته این است که، چون متن بسیار فشرده شده است، نمی توانید با جستجوی یک نقل قول دقیق به دنبال اطلاعات بگردید. شما هرگز مطابقت دقیقی نخواهید داشت، زیرا کلمات آن چیزی نیستند که ذخیره می شوند. برای حل این مشکل، یک رابط ایجاد می‌کنید که پرس‌و‌جوها را در قالب سؤال می‌پذیرد و با پاسخ‌هایی پاسخ می‌دهد که اصل چیزهایی را که روی سرور خود دارید نشان می‌دهد.

آنچه من توضیح دادم بسیار شبیه ChatGPT یا بیشتر مدل های زبانی بزرگ دیگر است. . ChatGPTرا به عنوان یک JPEG کدر و تار از تمام متن های وب در نظر بگیرید. بسیاری از اطلاعات موجود در وب را حفظ می کند، همانطور که یک JPEG بسیاری از اطلاعات یک تصویر با وضوح بالاتر را حفظ می کند، اما، اگر به دنبال توالی دقیقی از بیت ها باشید، آن را پیدا نمی‌کنید. تنها چیزی که به دست می آورید یک تقریب است. اما، از آنجایی که تقریب به شکل متن دستوری ارائه می شود، که ChatGPT در ایجاد آن قدرت بالایی دارد، معمولاً قابل قبول است. شما همچنان به یک JPEG کدر نگاه می‌کنید، اما کدری به گونه‌ای رخ می‌دهد که تصویر کلی برا ا وضوح نسبتا خوبی نشان می‌دهد.

این تشبیه به "فشرده سازی با اتلاف" تنها راهی برای درک امکانات ChatGPT در بسته بندی مجدد اطلاعات موجود در وب با استفاده از کلمات مختلف نیست. این موضوع همچنین راهی برای درک "توهمات" یا پاسخ های بی معنی به سوالات واقعی است که مدل های زبان بزرگ مانند ChatGPT بسیار مستعد آن هستند. این توهمات نتیجه فشرده سازی هستند، اما  مانند برچسب های نادرست تولید شده توسط دستگاه فتوکپی زیراکس، به اندازه کافی قابل قبول هستند که شناسایی آنها مستلزم مقایسه آنها با نمونه‌های اصلی باشد، که در این مورد به معنای وب یا دانش خود ما از جهان است. وقتی اینگونه در مورد آنها فکر می کنیم، چنین عجایبی چیزی جز توهم نیستند. اگر یک الگوریتم فشرده‌سازی برای بازسازی متن پس از حذف نود و نه درصد متن اصلی طراحی شود، باید انتظار داشته باشیم که بخش‌های قابل‌توجهی از آنچه تولید می‌کند کاملاً بازسازی شده باشد (می‌توانسته با کلمات موجود،‌ خودش متن تازه ای تا حدودی نزدیک به متن اصلی تولید کرده باشد).

این قیاس، زمانی منطقی تر به نظر می رسد که به یاد ‌آوریم که با تکنیک رایجی که در"الگوریتم‌های فشرده‌سازی با اتلاف" استفاده می‌شود، بطور یقین عبارات یا کلماتی حذف یا اضافه می‌شود. یعنی تخمین چیزی که از دست رفته با نگاه کردن به آنچه در دو طرف شکاف وجود دارد، منطقی‌تر می‌شود. هنگامی که یک برنامه تصویری در حال نمایش یک عکس است و باید پیکسلی را که در طی فرآیند فشرده سازی از بین رفته است بازسازی کند، به پیکسل های نزدیک نگاه می کند و میانگین را محاسبه می کند. این همان کاری است که ChatGPT وقتی از او خواسته می‌شود که مثلاً گم شدن یک جوراب در خشک‌کن را با استفاده از سبک اعلامیه استقلال امریکا توصیف کند، انجام می‌دهد: گرفتن دو نقطه در «فضای واژگانی» و ایجاد متنی که مکان بین آنها را اشغال کند. (نتیجه این می‌شود که: "زمانی که در جریان رویدادهای انسانی، برای حفظ پاکیزگی و نظم آن، لازم است که فرد لباس‌های خود را از همسرش جدا کند...") سرگرم کننده است: آنها به جای عکس، یک ابزار "کدر" برای پاراگراف ها کشف کرده اند و از بازی کردن با آن لذت می برند.

با وجود اینکه مدل های زبانی بزرگ مانند ChatGPT اغلب به عنوان لبه فناوری هوش مصنوعی مورد تمجید قرار می گیرند، ممکن است به آنها به عنوان "الگوریتم های فشرده سازی با اتلاف"، نگاه شود و تواناییهای آن نادیده انگاشته شود – یا حداقل ارزش کمتری برای آن قائل شوند.  من فکر می‌کنم که با این نگاه انتقادی، امکانات و اصلاحات مفیدی دنبال خواهد شد تا" مدل‌های زبانی بزرگ" به سمت شباهتهای بیشتری با هوش انسانی حرکت کنند، اما جنبه دیگری از  فشرده‌سازی وجود دارد که ارزش بررسی دارد. از سال 2006، یک محقق هوش مصنوعی به نام مارکوس هاتر به هر کسی که بتواند یک عکس فوری یک گیگابایتی خاص از ویکی‌پدیا را کوچک‌تر از برنده قبلی جایزه، و البته با خطای کمتر فشرده کند، جایزه نقدی - معروف به جایزه فشرده‌سازی دانش بشری یا جایزه هاتر (Hutter) – می دهد.

 احتمالاً با فایل هایی که با فرمت فایل زیپ Zip‌ فشرده شده اند مواجه شده اید. فرمت zip فایل یک گیگابایتی Hutter  را به حدود سیصد مگابایت کاهش می دهد. آخرین برنده جایزه توانسته است آن را به صد و پانزده مگابایت کاهش دهد. این فقط یک تمرین برای مسابقه نیست. هاتر معتقد است که فشرده‌سازی بهتر متن، در ایجاد "هوش مصنوعی در سطوح هوش انسانی" مؤثر است، به این دلیل که می‌توان با درک درست متن به بیشترین درجه فشرده‌سازی دست یافت.

برای درک رابطه پیشنهادی بین فشرده سازی و درک مطلب، تصور کنید که یک فایل متنی حاوی میلیون ها مثال از جمع، تفریق، ضرب و تقسیم دارید. اگرچه هر الگوریتم فشرده‌سازی می‌تواند حجم این فایل را کاهش دهد، اما راه دستیابی به بیشترین نسبت فشرده‌سازی احتمالاً استخراج اصول حساب و سپس نوشتن کد یک برنامه ماشین حساب است. با استفاده از یک ماشین حساب، می‌توانید نه تنها میلیون‌ها مثال موجود در فایل، بلکه هر نمونه دیگری از محاسباتی را که ممکن است در آینده با آن مواجه شوید، کاملاً بازسازی کنید. همین منطق در مورد مشکل فشرده سازی یک برش از ویکی پدیا نیز صدق می کند. اگر یک برنامه فشرده‌سازی بداند که نیرو برابر است با جرم ضربدر شتاب، می‌تواند هنگام فشرده‌سازی صفحات مربوط به فیزیک، کلمات زیادی را کنار بگذارد، زیرا قادر به بازسازی آنها خواهد بود. به همین ترتیب، هرچه برنامه اطلاعات بیشتری در مورد عرضه و تقاضا داشته باشد، می تواند کلمات بیشتری را هنگام فشرده سازی صفحات مربوط به اقتصاد و غیره کنار بگذارد.

مدل های زبانی بزرگ، نظم های آماری را در متن شناسایی می کنند. هر گونه تجزیه و تحلیل از متن وب نشان می دهد که عباراتی مانند "عرضه کم است" اغلب در مجاورت عباراتی مانند "افزایش قیمت ها" ظاهر می شوند. یک ربات چت که این همبستگی را درست محاسبه می‌کند، ممکن است وقتی سوالی در مورد تأثیر کمبود عرضه پرسیده شود، با پاسخی در مورد افزایش قیمت ها پاسخ دهد. اگر یک مدل زبانی بزرگ تعداد زیادی از همبستگی‌ها را بین اصطلاحات اقتصادی جمع‌آوری کرده باشد - آنقدر زیاد که می‌تواند پاسخ‌های قابل قبولی را به سؤالات مختلف ارائه دهد - آیا باید بگوییم که واقعاً نظریه اقتصادی را درک می‌کند؟ مدل‌هایی مانند ChatGPT به دلایل مختلفی واجد شرایط دریافت جایزه Hutter نیستند، یکی از آنها این است که متن اصلی را دقیقا بازسازی نمی‌کنند، یعنی "فشرده‌سازی بدون اتلاف" انجام نمی‌دهند. اما آیا این امکان وجود دارد که "فشرده سازی با اتلاف" آنها نشان دهنده درک واقعی از نوعی باشد که محققان هوش مصنوعی علاقه مند و به دنبال آن هستند؟

بیائید به مثال حساب برگردیم.. اگر از  GPT-3(مدل زبانی بزرگی که ChatGPT از آن ساخته شده است) بخواهید دو عدد را جمع یا تفریق کند، تقریباً همیشه زمانی که اعداد فقط دو رقمی باشند، پاسخ صحیح را می دهد. اما دقت آن با اعداد بزرگتر به طور قابل توجهی بدتر می شود و زمانی که اعداد پنج رقمی هستند به ده درصد کاهش می یابد. بیشتر پاسخ‌های صحیحی که GPT-3 می‌دهد در وب یافت نمی‌شوند. علیرغم دریافت حجم وسیعی از اطلاعات، قادر به استخراج اصول حساب و محاسبه نیست. بررسی دقیق پاسخ‌های نادرست GPT-3 نشان می‌دهد که هنگام انجام محاسبات، «1» را ندارد. وب قطعا حاوی توضیحاتی در مورد "1" است، اما GPT-3  قادر به ترکیب این توضیحات نیست. تجزیه و تحلیل آماری GPT-3 از مثال‌های محاسباتی، آن را قادر می‌سازد تا یک تقریب سطحی از چیز واقعی ایجاد کند، اما نه بیشتر از آن.

با توجه به شکست GPT-3 در موضوعی که در مدرسه ابتدایی تدریس می‌شود، چگونه می‌توانیم این واقعیت را توضیح دهیم که گاهی اوقات به نظر می‌رسد در نوشتن مقالات در سطح دانشگاه عملکرد خوبی دارد؟ اگرچه مدل‌های زبان بزرگ اغلب ابهام و اشتباه دارند، اما آنجا که شفاف و درست پاسخ می‌دهند به نظر می‌رسد که واقعاً موضوعاتی مانند نظریه اقتصادی را درک می‌کنند. شاید محاسبات یک مورد خاص باشد که مدل های زبانی بزرگ برای آن مناسب نیستند. آیا این امکان وجود دارد که در حوزه‌های خارج از جمع و تفریق، قوانین آماری در متن، با دانش واقعی دنیای واقعی مطابقت داشته باشند؟

من فکر می کنم توضیح ساده تری وجود دارد. تصور کنید اگر ChatGPT یک الگوریتم بدون اتلاف باشد، چه شکلی به نظر می رسد. اگر چنین بود، همیشه با ارائه یک نقل قول از یک صفحه وب مرتبط به سؤالات پاسخ می داد و  ما احتمالاً نرم افزار را یک سیستم با پیشرفتی نسبی، نسبت به یک موتور جستجوی معمولی تلقی می‌کردیم و کمتر تحت تأثیر آن قرار می گرفتیم. این واقعیت که ChatGPT  مطالب را از وب به‌جای نقل قول کلمه به کلمه بازنویسی می‌کند، به نظر می‌رسد که دانش‌آموزی ایده‌های خود را با کلمات خود بیان می‌کند، نه اینکه صرفاً آنچه را که خوانده است بازگو کند. در نتیجه این توهم را ایجاد می کند که ChatGPT مطالب را درک می کند. در دانش آموزان انسانی، حفظ کردن مطلب نشانه‌ای برای یادگیری واقعی نیست، بنابراین ناتوانی ChatGPT  در تولید نقل قول های دقیق از صفحات وب دقیقاً همان چیزی است که ما را به این فکر می‌اندازد که آیا چیزی یاد گرفته است؟ وقتی با توالی کلمات سروکار داریم، فشرده سازی با اتلاف هوشمندتر از فشرده سازی بدون تلفات به نظر می رسد.

کاربردهای زیادی برای مدل‌های زبانی بزرگ پیشنهاد شده است. نگاه به آنها به عنوان JPEGهای کدر خود راهی برای ارزیابی مواردی است که ممکن است درست یا نامناسب باشند. در اینجا می‌خواهیم چند سناریو را در نظر بگیریم.

آیا مدل های زبانی بزرگ می توانند جای موتورهای جستجوی سنتی را بگیرند؟ برای اینکه اطمینان خود را نشان دهیم، باید بگوئیم و بدانیم که آنها با تبلیغات و فریبهای تجاری ساخته نشده و محتوای دروغین به آنها داده نشده است - باید بدانیم که JPEG بخش‌های مناسبی از وب را به تصویر می‌کشد. اما، حتی اگر یک مدل زبانی بزرگ فقط شامل اطلاعاتی باشد که ما می‌خواهیم، باز هم موضوع کدری وجود دارد. یک نوع کدری قابل قبول وجود دارد که عبارت است از بیان مجدد اطلاعات در قالبهای زبانی مختلف. ولی در جاهایی آشکارا عبارتها و پاسخهای ساختگی وجود دارد که وقتی به دنبال پاسخهای دقیق و حقیقی هستیم آن پاسخها برایمان غیر قابل قبول است. بطور واضح مشخص نیست که از نظر فنی آیا امکان حفظ بخش کدر و تاری  قابل قبول و حذف نوع غیرقابل قبول وجود دارد یا نه، البته  من انتظار دارم که در آینده نزدیک متوجه این موضوع شویم.

حتی اگر بتوان مدل‌های زبانی بزرگ را از درگیر شدن در ساختن (مصنوعی و غیر هوشمندانه پاسخها) ، محدود کرد، آیا باید از آنها برای تولید محتوای وب استفاده کنیم؟ این تنها در صورتی منطقی خواهد بود که هدف ما بسته بندی مجدد اطلاعاتی باشد که از قبل در وب در دسترس بوده است. شرکت‌های مختلفی برای انجام این کار وجود دارند که ما معمولا آنها را کارخانه تولید محتوا می نامیم. شاید کدری مدل‌های زبانی بزرگ برای آنها خیلی سودمند باشد، چون راهی برای دور زدن کپی رایت و تقلب با ظاهر قانونی خواهد بود. با این حال، به طور کلی، می‌توانم بگویم که همه آن چه برای این کارخانه‌های تولید محتوا سودمند و خوب است، برای افرادی که به دنبال اطلاعات واقعی هستند خوب نیست. افزایش این نوع بسته بندی مجدد عبارات چیزی است که یافتن آنچه را که در حال حاضر آنلاین به دنبال آن هستیم برای ما دشوارتر می کند. هر چه متن تولید شده توسط مدل های زبانی بزرگ بیشتر در وب منتشر شود، وب به نسخه‌ای پرابهام  تر از آنچه هم اکنون هست تبدیل می شود. (چنان اطلاعا ت درست و اطلاعات کدر (بخوانید مبهم) در هم می‌شود که تشخیص آن برای همه مشکل ایجاد خواهد کرد).

اطلاعات بسیار کمی در مورد جانشین آینده  و    ChatGPTنسل بعدی محصول OpenAI ، یعنی  GPT-4 در دسترس است. اما من یک نکته را پیش‌بینی می‌کنم: هنگام جمع‌آوری متن‌ها و مطالب جدید و حتما بسیار بیشتر برای استفاده در آموزش GPT-4، متخصصان و دانشمندان  OpenAI تمام تلاش خود را برای حذف مطالب تولید شده توسط ChatGPT یا هر مدل زبانی بزرگ دیگری به کار خواهند گرفت. و  اگر پیش بینی من درست باشد، تاییدی است بر این که تناسب  بین "مدل های زبانی بزرگ" و "فشرده سازی با اتلاف" بسیار مهم و موثر می تواند باشد. ذخیره‌سازی مجدد و مکرر یک JPEG باعث ایجاد فشرده سازی دست ساخته و مصنوع بیشتری می شود، زیرا هر بار اطلاعات بیشتری از دست می رود. این معادل فتوکپی مکرر از فتوکپی در روزهای قدیم است. کیفیت تصویر در هر مرحله بدتر می شود.

در واقع، یک شاخص سودمند برای سنجش کیفیت یک مدل زبانی بزرگ می‌تواند استفاده از متنهای گسترده و صحیحی باشد که به عنوان ماده آموزشی برای یادگیری ماشین در یک  مدل جدید توسط یک شرکت استفاده می‌شود. اگر خروجی ChatGPT برای GPT-4  به اندازه کافی خوب نباشد، ممکن است آن را به عنوان یک شاخص در نظر بگیریم که برای ما نیز به اندازه کافی خوب نخواهد بود. برعکس، اگر برای این مدل جدید شروع به تولید متن‌های خوب کنند که بتوان از آن برای آموزش مدل‌های جدید استفاده کرد، باید به کیفیت آن مدل  اعتماد کنیم. (من گمان می‌کنم که چنین نتیجه‌ای مستلزم پیشرفت بزرگی در تکنیک‌های مورد استفاده برای ساخت این مدل‌ها باشد.) اگر و زمانی که ما شروع به دیدن مدل‌هایی کنیم که خروجی‌هایی به اندازه ورودی آنها تولید می‌کنند، آن‌گاه قیاس فشرده‌سازی با اتلاف دیگر قابل تامل نخواهد بود.

آیا مدل های زبانی بزرگ می توانند به انسان در ایجاد نوشتارهای بنیادی و اصیل کمک کنند؟ برای پاسخ به آن، باید منظورمان از این سوال را مشخص کنیم. ژانری از هنر وجود دارد که به هنر زیراکس یا هنر فتوکپی معروف است که در آن هنرمندان از ویژگی‌های متمایز دستگاه فتوکپی به عنوان ابزار خلاقانه استفاده می‌کنند. مطمئناً چیزی در حدود همین کار با دستگاه فتوکپی که ChatGPT است. آیا این کار امکان پذیر است، از یک نگاه، پاسخ مثبت است. اما فکر نمی‌کنم کسی ادعا کند که دستگاه فتوکپی به ابزاری ضروری در خلق هنر تبدیل شده است. اکثریت قریب به اتفاق هنرمندان از فتوکپی‌ها در فرآیند خلاقیت خود استفاده نمی‌کنند، و هیچ کس استدلال نمی‌کند که با این انتخاب چیزی را از دست می‌دهند.

بنابراین بیایید فرض کنیم که ما در مورد گونه یا ژانر جدیدی از نوشتن که مشابه هنر زیراکس است صحبت نمی کنیم. با توجه به این شرط، آیا متن تولید شده توسط مدل‌های زبانی بزرگ می‌تواند نقطه شروع مفیدی برای نویسندگان باشد تا در هنگام نوشتنِ متنی اصیل و بنیادی از آن استفاده کنند، چه داستانی یا غیرداستانی؟ آیا استفاده از نقطه شروع های ایجاد شده توسط یک مدل زبانی بزرگ به نویسندگان اجازه می دهد تا توجه خود را بر روی بخش های واقعا خلاقانه کارشان متمرکز کنند؟

 

 

بدیهی است که هیچ کس نمی تواند به جای همه نویسندگان صحبت کند، اما اجازه دهید این بحث را مطرح کنم که شروع با یک کپی مبهم و کدر از اثری  غیراصیل، راه خوبی برای خلق اثر اصیل نیست. اگر نویسنده هستید، قبل از اینکه چیزی اصیل بنویسید، کارهای غیر اصیل  (به زبان عامه بگوئیم، چرکنویس، یا نسخه‌های پیش‌نویس و یادداشتهای پراکنده) زیادی خواهید نوشت. و زمان و تلاشی که صرف آن کار چرکنویسها  و متون اولیه شده است، هرگز هدر نمی‌رود. برعکس، من پیشنهاد می‌کنم که این دقیقاً همان کاری است که شما باید بکنید و این چرکنویسها شما را قادر می‌سازد در نهایت چیزی اصیل خلق کنید. ساعت‌هایی که صرف انتخاب کلمه مناسب و تنظیم مجدد جملات برای دنبال هم قراردادن دقیقتر و زیباتر آنها می‌شود، چیزی است که به شما می‌آموزد که چگونه معنا با نثر بهتری منتقل می‌شود. انشا نویسی و مقاله نویسی دانش آموزان مدرسه ای کار تحقیقی نیست و برای درک آنها از مطالب نیست. بلکه به آنها تجربه در بیان افکارشان را می‌آموزد. اگر دانش‌آموزان هرگز مجبور نباشند انشاهایی بنویسند که همه ما قبلاً خوانده‌ایم، هرگز مهارت‌های لازم برای نوشتن چیزی را که ما هرگز نخوانده‌ایم به دست نخواهند آورد.

و اینطور نیست که پس از پایان دوران مدرسه و دانش‌آموزی، بتوانید با خیال راحت از الگویی که یک مدل زبانی بزرگ به شما می دهد استفاده کنید. تلاش برای بیان افکارتان پس از فارغ‌التحصیلی از بین نمی‌رود، هر بار که شروع به تهیه پیش‌نویس یک قطعه جدید می‌کنید، همه مراحل (چرکنویس و پیش نویس و ....) دوباره باید تکرار شوند. گاهی اوقات فقط در مرحله نوشتن است که ایده های اصلی خود را کشف می کنید. برخی ممکن است بگویند که خروجی مدل‌های زبانی بزرگ با پیش‌نویس اول یک نویسنده انسانی تفاوت چندانی ندارد، اما، باز هم، فکر می‌کنم این یک شباهت سطحی است. اولین پیش نویس شما ایده ای غیراصیل نیست که به روشنی و دقیق بیان شده باشد، آن چرکنویس یا ایده اولیه یک ایده اصیل است که هنوز ضعیف است، و شاید از شمایلش ناراضی باشید ولی باید آگاه باشید که این نوشته اولیه ولی اصیل و حتی ضعیف، آن چیزی است که الآن در دست دارید و با آنچه می خواهید بگویید فاصله دارد، و این آگاهی همان چیزی است که شما را در حین بازنویسی هدایت می کند، و یکی از چیزهایی است که وقتی با متن تولید شده توسط هوش مصنوعی شروع می کنید، فاقد آن هستید.

هیچ چیز جادویی یا اسرارآمیز در مورد نوشتن وجود ندارد، اما هر چه هست بسیار فراتر از  قرار دادن یک برگ نوشته روی یک دستگاه فتوکپی غیرقابل اعتماد و فشار دادن دکمه چاپ است. این امکان وجود دارد که در آینده برنامه ای با هوش مصنوعی بسازیم که قادر به نوشتن نثر خوبی بر اساس چیزی از تجربه خود از جهان شود. روزی که به این سطح از موفقیت دست یابیم واقعاً روز مهمی خواهد بود،  اما آن روز بسیار فراتر از افق پیش بینی ما است.

حال در این مرحله، به نظرتان منطقی است که بپرسیم، داشتن چیزی که وب را دوباره بیان می‌کند چه فایده ای دارد؟ مگر اینکه ما برای همیشه دسترسی خود را به اینترنت از دست می‌دادیم و مجبور بودیم یک کپی را روی یک سرور خصوصی با فضای محدود ذخیره کنیم، در آن حالت یک مدل زبانی بزرگ مانند ChatGPT ممکن بود راه‌حل خوبی باشد، با این فرض که می‌توان از ساختن مجدد متون و چیزهای موجود در وب جلوگیری کرد. اما ما دسترسی خود را به اینترنت از دست نمی دهیم. بنابراین، در حالی که هنوز نسخه اصلی را دارید، یکJPEG کدر از وب چقدر کاربرد دارد؟

 

عمرانی، سیدابراهیم «ChatGPT یک JPEG کدر  و تار از وب است ! ! ! !: تکمله‌ای بر سخن هفته: آیا دوران کتابداران به سر رسیده است؟». سخن هفته لیزنا، شماره ۶۳۱،  ۴ اسفندماه 1401.


  1. UEFI  یا Unified Extensible Firmware Interface یک واسط نرم‌افزاری بین سیستم‌‌عامل، میان افزار (Firmware)  و سخت‌افزار است
  2. Master Boot Record